在这个言语交际链中,有9个环节。其中,除了6-7之间的音序列,其它环节都是难以进行客观观察的。如果将音序列转换为文字,那我们可进行客观研究的对象就变成了文字符号序列。换言之,基于这些音(文字)序列上发现的规律可能才是科学意义上的人类语言系统运作的规律。人类语言所具有的这种线条性,是人类生理机制约束的产物,也是现代语言学之父索绪尔认为的语言最重要的两大特性之一。但作为专门研究语言的科学家,我们对人类语言线条性所蕴含的规律又知道多少呢?如果考虑到,诸如ChatGPT之类的人工智能系统就是从这样的序列中习得语言知识和规律,并使用这些知识和规律生成符合人类使用习惯的语言的,那我们作为世界上理应最懂语言规律的人,可能确实要好好反思了。沿着这个思路,我们在今年发表了两篇相关的文章。第一篇发在计算语言学和自然语言处理领域(即,人工智能中处理人类语言的分支)的4i收录期刊Natural Language Engineering上:
今年我参与的文章还有一些,具体可参看我的浙大主页https://person.zju.edu.cn/lht。这里简单提及几篇:管玮关于儿童转述问题的文章、洪新培和黄伟关于中文词结构和频率关系的研究、龙怡君关于苗文历史与演变的文章、亓达用依存距离研究言语行为的文章、张慧玉关于中国大陆过去35年语言政策的研究、刘建鹏关于老年人语言网络的研究、原伟关于虚假新闻语言计量特征的研究等。我们的研究大多基于真实语言材料,都有数字,或多或少地,都发现了一些模式或规律,这么做的原因在于,我们相信 Mathematica 的主要设计师Stephen Wolfram在谈到ChatGPT时所说的这句话:Human language (and the patterns of thinking behind it) are somehow
simpler and more “law like” in their structure than we thought. ChatGPT has
implicitly discovered it.既然ChatGPT能发现人类语言中的patterns & law,我们人类没有理由发现不了,只是过去的方法可能有些问题而已,那是不是可以改变一下?2023年,我还搞了一个数字人文巡讲。为什么做这个事?因为数字人文是“新文科”建设的核心组成部分,它不仅是数智时代对人文领域研究者的挑战,更是机遇。数据不仅会改变人类看待自己的方式,也能更好地探索人类社会演变的规律。但纵观四周,人们对于数字人文的理解过于狭隘,往往将其简单地视为人文材料的数字化。因此,基于我们团队十多年来的数字人文研究实践和众多文学、语言、翻译的案例,我的巡回讲座旨在阐明数字人文的真谛在于如何将数据与知识、社会、文化、历史、行为、人联系在一起,更科学地发现、解释人类行为的模式及人与社会、自然交互的规律,更准确地预测人类和社会的未来。从今年4月到11月,我在扬州、贵阳、广州、上海、兰州、北京、西安、郑州、杭州、厦门等地的多所大学,做了十多场数字人文的讲座,听众达上千人。
如何更好、更深入地理解这些文字和图片,您可能需要等待明年春天重开的列车了。在等车的时候,您也可先琢磨琢磨“数据→模式→知识→网络→智能”这条数智时代关键链……就这样说着说着,今年就过去了。在呼唤更多的人登上开往未来的列车的同时,我们自己也在不断打造更快、更先进的列车。今年,我们在国际数字人文的旗舰刊物Digital Scholarship in the Humanities上发表了3篇文章。